查看原文
其他

常珊点评 | Science突破:AlphaFold联手RoseTTAFold,翻越蛋白结构预测又一座大山

曼话 医药魔方Pro 2022-11-13


蛋白质结构预测领域的人工智能 (AI) 革命仍在继续。2020年底,DeepMind开发的新一代AlphaFold(即AlphaFold2)解决了生物学领域几十年来的重大挑战,实现了基于氨基酸序列精确预测蛋白质3D结构的重大突破。短短半年多后,DeepMind又与合作者发布了由AlphaFold2系统预测的蛋白结构数据库(AlphaFold Protein Structure Database)。该数据库包含了由新一代AlphaFold系统预测的约35万个蛋白结构,其中,在人类蛋白质组方面,AlphaFold2对98.5%的(20296种)人类蛋白的结构做出了预测。这些进展代表了AI技术在单个蛋白结构预测方面取得的一个又一个里程碑。

 

然而,预测单个蛋白的结构其实只是开始,如何准确预测蛋白质复合物的结构,解密蛋白-蛋白相互作用是很多团队正在努力翻越的另一座大山。

 

蛋白-蛋白复合物以及蛋白质与其他大分子(如DNA或RNA)组成的复合物在许多细胞过程中执行关键功能。这些复合物遭到破坏或者失调往往会导致疾病。目前,科学家们对蛋白质复合物的理解大多数是基于这些复合物的高分辨率三维结构。遗憾的是,利用现代蛋白质组学手段和其他方法,大多数细胞内形成的蛋白质复合物的结构信息无法确定。

 

来源:Science

 

尽管利用AI技术预测蛋白复合体的构象也存在多方面的障碍,但一些科学家团队已经取得了令人振奋的成果。今年最先受到关注的是,华盛顿大学的研究团队7月19日在Science杂志上报道的名为RoseTTAFold的蛋白结构预测系统[1]。RoseTTAFold系统突破了AlphaFold2的一个重要局限,不仅可用于基于氨基酸序列预测单一蛋白质的结构,还可以用于预测由两个或者多个蛋白构成的复合体的构象。论文中显示,RoseTTAFold系统利用IL-12和IL-12受体(IL-12R)的序列预测的IL-12/IL-12R复合体结构与此前利用冷冻电镜解析的结构非常类似。


RoseTTAFold所预测出的IL-12R–IL-12复合物结构与先前报道的电镜结构 (EMD-21645)相符(来源:Science)

 

11月11日,相隔不到4个月,Science杂志报道了AI预测蛋白质复合物结构的又一项里程碑进展[2]。这一次,可谓是“强强联合”。科学家们通过联合使用RoseTTAFold和AlphaFold两大系统,成功预测了酵母中大量蛋白质复合物的结构,包括数百个先前结构未知的蛋白质复合物。

 

来源:Science

 

事实上,在这项成果发表之前,科学家们已经利用AI技术生成了一些已知的蛋白质复合物的结构,但这些复合物主要存在于细菌中。而在真核生物(从酵母到人类)中,很多蛋白-蛋白相互作用也是未知的,解析和预测蛋白是如何在真核生物复杂的环境中聚集在一起的门槛要高得多。

 

在这篇论文中,为了找到可能形成复合物的蛋白质,科学家们首先将全部6000个酵母蛋白质的氨基酸序列与2026个其它真菌和4325个其它真核生物的氨基酸序列进行了比较(即全蛋白质组氨基酸共进化分析)。通过比较,研究人员可以追踪这些蛋白质在进化过程中是如何变化的,并确定在不同蛋白质中似乎是串联变化的序列。研究人员推断,发生串联变化的蛋白质可能会形成复合物,它们同步变化可能是为了维持彼此间的相互作用。

 

接着,研究团队使用RoseTTAFold和AlphaFold(公开可用)试图解决每一组候选复合物的3D结构。在鉴定出的830万对共同进化的酵母蛋白中,AI系统确定了1505对可能相互作用的蛋白质(PPI),其中,有699个蛋白质复合物的结构先前已被鉴定出来,有700个复合物(PPI)有一些来自文献和数据库的支持性实验数据但无确定的复合物结构,有106种复合物(PPI)先前未被报道过。

 

为了评价经AI系统预测蛋白质复合物三维结构的准确性,研究人员以PDB中有实验结构的699对蛋白质作为基准。分析结果显示,对于92%的蛋白质,至少50%“confident(predicted aligned error < 8 Å) AlphaFold-predicted contacts”存在于这些复合物的真实实验结构中。

 

这些基准结果为新的复杂相互作用的预测以及预测复合物的3D模型的准确性提供了信心。因此,接着研究人员预测了目前仍无可用高分辨结构信息的剩余806种复合物的结构,并根据它们的生物学功能对这些复合物进行了分类,包括1)参与遗传信息维护和处理(如DNA修复、转录、翻译)的复合物;2)参与蛋白质转运、在细胞骨架和细胞器中发挥作用的复合物;3)参与代谢的复合物等。这些复合物(有些多达5个亚基)在真核细胞的几乎所有关键过程中发挥作用,下面几张图展示了部分复合物结构:

 
参与转录、翻译和DNA修复的蛋白质复合物(来源:Science)
 
更高阶的蛋白质复合物(来源:Science)

 

DeepMind的JohnJumper(AlphaFold首席开发人员之一)认为,通过准确揭示蛋白之间的相互作用,AI系统将帮助生物学家直观地了解以前未知的复合物是如何在细胞内完成大量工作的。值得一提的是,上个月,Jumper及其同事在预印本平台bioRxiv上发布的一项研究描述了他们的新AI系统——AlphaFold-Multimer,该系统绘制了4433种蛋白质复合物的结构[3]。

 

来源:bioRxiv

 

斯坦福大学系统生物学家Michael Snyder在Science杂志配发的一篇新闻中评论道:“生物学中的一切都是复杂的,所以知道谁和谁合作(如蛋白和蛋白之间的相互作用)至关重要。预测蛋白质复合物结构的能力不仅有望带来细胞生物学方面的新见解,还有可能带来下一代治疗药物的新靶点。”

 

正如主导RoseTTAFold系统设计的David Baker 教授所说:“对于结构生物学来说,现在确实是一个激动人心的时刻。”

 

专家访谈


普美瑞生物 首席科学顾问 

 

常珊 博士



常珊,教授,博士,美国密苏里大学哥伦比亚分校博士后,普美瑞(常州)生物科技有限公司首席科学顾问。现任中国细胞学会生物信息学专委会委员,《数据采集与处理》编委会委员。开发的蛋白质复合物结构预测程序,在国际生物大分子相互作用预测竞赛(CASP-CAPRI)中,多次获得国际前三的好成绩。


医药魔方Pro:发表在Science杂志上的这项研究进展取得了怎么样的突破?

 

常珊博士:Science杂志上的研究将基于大规模深度学习的结构建模从单体蛋白质扩展到蛋白质组装,系统全面地预测了真核细胞模式生物酵母体内多种蛋白复合物结构。和以往Alphafold以及RoseTTAFold的研究有所不同的是,以前的研究是在已知某些具体蛋白发生相互作用的条件下,预测这些蛋白形成的复合物三维结构,而Science研究工作的重要特点是首先系统地预测了哪些蛋白可能会发生相互作用,再采用Alphafold以及RoseTTAFold进一步预测了其相互作用的蛋白复合物三维结构。在AI预测的1505种蛋白-蛋白相互作用中,有699个已有实验解析的复合物结构,700个有文献报道可能存在真实的PPI相互作用,还有106个全新的蛋白质相互作用。这些蛋白复合体是多种重要生命活动的最终行使者,因此对理解真核细胞的复杂工作过程具有重要意义。在将来,该研究有可能拓展到人类细胞中,进一步解析人类蛋白质组学相互作用图谱,为重大疾病的机制研究以及新靶点的发现提供重要线索。

 

不过,值得一提的是,Alphafold以及RoseTTAFold都比较依赖于共进化信息,在预测哪些蛋白质可能会发生相互作用时,有可能忽略一些相互作用,或者过度估计一些相互作用。

 

医药魔方Pro:相比单体蛋白,蛋白质复合物的结构预测目前面临哪些障碍?这些障碍应如何克服?

 

常珊博士:Alphafold等基于深度学习的蛋白质复合物结构预测面临的主要障碍还是在数据方面:1) 结构生物学解析的蛋白质复合物结构数量要远少于单体蛋白,因此可供训练以及预测所需要的模板结构数目相对较少甚至缺失;2) 蛋白质复合物中不仅仅只包含两条链,更高阶的复合物结构会存在多条链,多条链之间两两相互作用的情况会随着链数增加变得更加复杂,高阶复合物结构预测的误差也会因此变大;3) 蛋白质复合物中每条链都需要有足够的多序列比对(MSA)数据,且多个异源蛋白之间需要将序列比对的数据进行配对,因此,异源复合物的预测准确性会比同源的蛋白质复合物预测情况要差一些。

 

总体来看,蛋白质复合物结构预测方法上已经取得了很大的突破,障碍主要还是可利用数据欠缺的问题。因此,增加更多的实验结构和序列比对信息,是克服障碍的途径,但短期内并不容易解决。值得考虑的是,采用一些基于物理理论的方法增加约束,或者去引入和挖掘一些新的生物学数据,有可能会进一步提高预测的准确性。

 

医药魔方Pro:除了蛋白质复合物结构预测,结构生物学领域还有哪些难题有望通过AI技术解决?

 

常珊博士:首先,除了蛋白质分子,包括RNA、多糖、DNA等其他生物分子均具有重要的生物学功能,因此这些分子的结构预测,以及蛋白质与这些分子之间形成的复合物结构预测,AI技术都有可能发挥重要作用。在某些具体问题上,蛋白质结构预测中使用到的以共进化信息为主要输入的AI模型不一定适用,需要构建新型的AI预测方法。

 

其次,值得注意的是,生物分子的功能形式通常伴随其结构的动态变化。简单的来说,任何生物分子在细胞中均存在于溶液的湿环境中,分子柔性和构象变化是功能发挥必不可缺的,而实验上对这些动态过程的测量手段十分有限。因此对于生物分子动态过程的仿真模拟,可能是AI技术的另一个突破点。

 

另外,对于小分子药物或抗体药物的开发,需要预测蛋白质与小分子或抗体的相互作用,在这些场景下,并不具备共进化信息,需要AI技术联合分子模拟技术进行建模与预测。

 

医药魔方Pro:最近两年,AI药物研发取得了重要进展,一些领先公司的项目已经进入临床。总体来看,AI药物研发目前处于怎么样的发展阶段,未来3-5年会取得怎样的突破?

 

常珊博士:AI药物研发目前总体处于群雄逐鹿,方兴未艾的阶段。AI应用的场景非常多,但能达到Alphafold2这种重大突破的并不多。未来3-5年,AI药物研发有可能在部分领域取得突破,如通过AI发现新的靶点,根据AI预测的靶点结构设计新的药物,AI技术启发发现一些新的分子骨架。但目前大多数药物发现还是通过分子对接方法来进行靶点和化合物分子的复合物结构预测。如果和目前蛋白质结构预测的Alphafold2一样,出现了非常准确的AI蛋白质-小分子结构预测技术,那很有可能药物开发将会迎来重大突破。

 

最近,谷歌母公司Alphabet成立了Isomorphic Labs专注于AI药物发现,Alphafold2的开发者Demis Hassabis将同时担任 Isomorphic Labs 的首席执行官,相信他们会从最擅长的结构预测领域出发,去解决药物研发的痛点问题。

 

医药魔方Pro:您的团队在AI制药方面进行了怎么样的布局?未来3-5年,希望实现怎么样的研发目标?

 

常珊博士:我们团队考虑从实验环节的具体需求出发,将AI技术和分子模拟技术以及传统CADD方法相结合,选择最有效的方法推进创新药物研发。在药物开发的某些领域,基于Alphafold蛋白质复合物结构预测的AI技术暂时还无法直接应用,比如靶点-小分子,抗体-抗原,PROTAC等相互作用的预测,在其中MSA和共进化信息能起到的作用有限。而这些领域,可以更好的发挥我们团队在分子对接领域的优势,并建立不同于Alphafold2等的AI模型。团队开发的蛋白-蛋白分子对接算法CoDock在2020年CASP14-CAPRI国际比赛中取得了蛋白质复合物结构预测打分组排名第一,预测组排名第三的成绩。以分子之间的相互作用预测为核心,我们进一步推出了基于深度学习算法改良的云计算平台,可预测蛋白-蛋白,抗原-抗体,蛋白-小分子,PROTAC三元复合体等多种类型的相互作用。


未来3-5年,团队将一方面在算法开发方面继续深耕,发展高精度的相互作用预测方法,并向创新药物发现的下游延伸,使更多的环节上能通过计算进行加速;另一方面,我们十分重视算法在具体开发项目上的应用,形成了算法开发-算法应用-实验验证的闭环开发平台,针对具体项目进行算法优化并将研发管线稳步向前推进。

 

医药魔方Pro:如果把时间线拉得长一些,30-50年后,您认为,AI技术在新药研发领域会达到怎样的应用程度?

 

常珊博士:我个人可能更乐观一些,30年以内,AI技术必然会成为新药研发的重要驱动力。AI技术在解决确定问题方面的确有着比人类更强的能力。新药研发虽然链条很长,但每个环节的问题相对是比较明确的。因此,在每个环节上,AI技术都有可能做得比之前的技术更好。但新药研发又是个系统工程,只要某一个环节出问题,就有可能前功尽弃。因此新药研发全局和系统的预测效果如何,对AI技术以及其他的计算方法都是极大的挑战。但欣慰的是,现在AI技术大模型也在发展,比微软GPT-3参数更多的AI超级模型将会越来越多,这可能是解决整体问题最有效的方法。因此,非常期待新药研发的整体设计能力在30年内取得突破。

 

—滚动查看参考资料—
参考资料:
[1] MINKYUNG BAEK et al. Accurate prediction of protein structures and interactions using a three-track neural network. Science(2021).[2] Ian R. Humphreys et al. Computed structures of core eukaryotic protein complexes. Science(2021).[3] Richard Evans et al. Protein complex prediction with AlphaFold-Multimer. bioRxiv(2021).[4] AI cracks the code of protein complexes—providing a road map for new drug targets(来源:Science)

温馨提示


医药魔方Pro公众号聚焦全球新靶点、新疗法、新技术相关的重要研究进展和投融资事件,并提供热门领域的趋势分析、专家见解等多维度内容。


星标⭐医药魔方Pro,这样就能第一时间收到我们的推送啦~操作步骤见下图:1)点击标题下方“医药魔方Pro”,2)至右上角“...”,3)设为星标。



热门疗法/技术/靶点


蛋白降解剂 | 基因疗法 | RNA疗法

细胞疗法 | NK细胞疗法 | CAR-T疗法

AI制药 | 抗体偶联药物  | 双特异性抗体

溶瘤病毒 | 外泌体疗法 | 微生物疗法

KRAS药物 | PD-1抗体 | PARP抑制剂


点亮“在看”,好文相伴

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存